顺序决策的违规政策评估方法可用于帮助识别拟议的决策政策优于当前基线政策。但是,新的决策政策可能比某些人的基线政策更好,但不是其他人。这有动力推动个性化和准确的单态治疗效果估算(HTES)。鉴于许多重要应用中存在的有限数据,个体预测可以以准确性和在这种预测中的准确性和置信度的成本。通过识别子组,我们开发一种平衡对个人化的需求,以通过识别相对于基线的新决策政策中的预期差异来自信地估计预期估计。我们提出了一种新的损失函数,用于在子组分区阶段期间的不确定性。在实验中,我们表明我们的方法可用于形成其他方法斗争的HTES的准确预测。
translated by 谷歌翻译
在整个设计社区中,生成设计一直在增长,作为设计空间探索的可行方法。由于具有附加的对流扩散方程及其相关边界相互作用,热设计比机械或空气动力学设计更为复杂。我们使用合作的多代理深钢筋学习以及流体和固体结构域的连续几何表示,提出了生成的热设计。该提出的框架由预先训练的神经网络替代模型组成,作为预测产生几何形状的传热和压降的环境。设计空间通过复合Bezier曲线进行参数化,以求解多个FIN形状优化。我们表明,我们的多代理框架可以使用多目标奖励来学习设计策略的策略,而无需形状推导或可区分的目标函数。
translated by 谷歌翻译
我们提出了使用复合曲线曲线产生的复杂鳍几何形状的传​​热和压降预测的替代模型。热设计过程包括复杂,计算昂贵且耗时的迭代高保真模拟。随着机器学习算法以及图形处理单元(GPU)的进步,我们可以利用GPU的并行处理体系结构,而不仅仅是仅依靠CPU来加速热流体模拟。在这项研究中,卷积神经网络(CNN)用于直接从保存为图像的拓扑中预测计算流体动力学(CFD)的结果。研究了带有单个鳍和多个形态鳍的表壳。为案例提供了单个FIN设计的Xpection网络和常规CNN的比较。结果表明,对于单鳍设计,尤其是使用Xception网络,观察到高精度的预测精度。增加设计自由到多个鳍片会增加预测的误差。然而,对于设计目的而言,这一错误仍在压降和传热估计中保持在3%之内。
translated by 谷歌翻译
在这项工作的第一部分[32]中,我们引入了针对二次约束二次程序的凸抛物线松弛,以及依次惩罚的抛物线释放算法,以恢复近乎最佳的可行解决方案。在第二部分中,我们表明,从可行的解决方案或满足某些规律性条件的近乎可行的解决方案开始,顺序惩罚的抛物线弛豫算法的收敛到满足Karush-Kuhn-tucker优化条件的点。接下来,我们介绍了基准非凸口QCQP问题的数值实验以及系统识别问题的大规模实例,证明了所提出的方法的效率。
translated by 谷歌翻译
对于一般二次约束二次编程(QCQP),我们提出了一种用凸二次约束描述的抛物线弛豫。抛物线弛豫的一个有趣的特性是原始的非凸起可行集包含在抛物线弛豫的边界上。在某些假设下,该财产使人们能够通过客观惩罚恢复近乎最理想的可行点。此外,通过对需要一次性计算的最佳基础计算的适当更改,可以使易于解决的抛物线释放放松与半决赛编程(SDP)放松一样强大,这可以有效地意识到算法,这些算法可以使得算法有效需要解决一系列凸替代物。这项工作的下一部分给出了大多数理论和计算结果[57]。
translated by 谷歌翻译
在本文中,我们为两个静态的美国手语(ASL)手势分类任务(即ASL字母和ASL数字)开发了四个尖峰神经网络(SNN)模型。SNN模型部署在英特尔的神经形态平台上,然后与部署在边缘计算设备(Intel神经计算棒2(NCS2))上的等效深神经网络(DNN)模型进行了比较。在准确性,延迟,功耗和能源方面,我们进行了两种系统之间的全面比较。最佳DNN模型在ASL字母数据集上的精度为99.6%,而最佳性能SNN模型的精度为99.44%。对于ASL数字数据集,最好的SNN模型以99.52%的精度优于其所有DNN对应物。此外,我们获得的实验结果表明,与NCS2相比,Loihi神经形态硬件的实现分别可降低14.67倍和4.09倍。
translated by 谷歌翻译
许多现有的模仿学习数据集都是从多个演示者那里收集的,每个示威者在环境的不同部分都有不同的专业知识。然而,标准模仿学习算法通常将所有示威者视为同质的,无论其专业知识如何,都会吸收任何次优示威者的弱点。在这项工作中,我们表明,对演示者专业知识的无监督学习可以导致模仿学习算法的性能一致。我们在示威者的学习政策和专业知识水平上开发并优化了联合模型。这使我们的模型能够从最佳行为中学习,并过滤每个演示者的次优行为。我们的模型学会了一项单一的政策,即使是最好的演示者,也可以用来估计任何州的任何演示者的专业知识。我们说明了我们从机器人和离散环境(例如Minigrid和国际象棋)的真实性持续控制任务的发现,以21美元的价格出售$ 23 $设置,平均价格为$ 7 \%\%,最高$ 60 \%\% $根据最终奖励的改进。
translated by 谷歌翻译
已知机器学习模型易于对抗对抗攻击,这可以通过引入小而设计的扰动来导致错误分类。在本文中,我们考虑了经典假设检测问题,以便在防止这种对抗扰动的捍卫方面发展基本的洞察力。我们将对抗扰动作为滋扰参数来解释对抗性扰动,并提出基于将广义似然比测试(GLRT)应用于所得复合假说检测问题的防御,共同估计兴趣类和对抗扰动。虽然GLRT方法适用于一般多级假设检测,但我们首先在$ \ ell _ {\ infty} $ norm-fundersarial扰动下对白高斯噪声中的二元假设检测进行评估,这是一个已知的最低限度防御优化最糟糕的攻击提供基准。我们派生了GLRT防御的最坏情况攻击,并表明其渐近性能(随着数据的维度增加)接近MIMIMAX防御。对于非渐近制度,我们通过模拟显示GLRT防御与最坏情况下的最小攻击性能竞争,同时在较弱的攻击下产生更好的稳健性准确性权衡。我们还说明了多级假设检测问题的GLRT方法,其中尚不清楚最少的策略,通过提供一种找到最佳噪声感知攻击的方法,评估其在噪声无神不可知和噪声感知的逆势环境下的性能和启发式攻击,发现在高SNR制度中接近最佳的噪声无关攻击。
translated by 谷歌翻译
多机器人系统通过整体对应物提供增强的能力,但它们以增加的协调复杂化。为了减少复杂性并使文献中的多机器人运动规划(MRMP)方法采用牺牲最优性或动态可行性的解耦方法采用解耦方法。在本文中,我们提出了一种凸起方法,即“抛物线弛豫”,为所有机器人的耦合关节空间中MRMP产生最佳和动态可行的轨迹。我们利用建议的放松来解决问题复杂性,并在极端集群环境中规划超过一百个机器人的计算途径。我们采取了一种多级优化方法,包括i)数学地配制MRMP作为非凸优化,II)将问题提升到更高的尺寸空间,III)通过所提出的计算有效的抛物线松弛和IV凸出问题。使用迭代搜索惩罚,以确保对原始问题的可行性和近最佳解决方案的可行性和恢复。我们的数值实验表明,所提出的方法能够在比最先进的成功率上具有更高成功率的挑战运动规划问题的最佳和动态可行的轨迹,但在高度密集的环境中,在一百个机器人中仍然在计算上仍然在计算上。 。
translated by 谷歌翻译
从一个人的错误中学习是一种有效的人类学习技术,学习者更多地关注在犯错误的主题上,以便加深他们的理解。在本文中,我们调查这种人类学习策略是否可以应用于机器学习。我们提出了一种新的机器学习方法,称为来自错误(LFM)的学习,其中学习者通过在修订期间更多地关注错误来提高其学习的能力。我们制定LFM作为三阶段优化问题:1)学习者学习;2)学习者重新学习专注于错误,而且;3)学习者验证其学习。我们开发了一种有效的算法来解决LFM问题。我们将LFM框架应用于CiFar-10,CiFar-100和ImageNet上的神经架构搜索。实验结果强烈展示了我们模型的有效性。
translated by 谷歌翻译